数据存储概述

💽 一、数据存储知识体系整体结构

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
数据存储知识体系
├── 存储分类维度
│ ├── 按数据类型:结构化 / 半结构化 / 非结构化
│ ├── 按访问模型:块存储 / 文件存储 / 对象存储
│ ├── 按部署方式:本地存储 / 分布式存储 / 云存储
│ ├── 按使用场景:缓存 / OLTP / OLAP / 日志 / 元数据等

├── 存储系统类型
│ ├── 关系型数据库(RDBMS
│ ├── NoSQLKV、文档、列、图)
│ ├── 时序数据库
│ ├── 搜索引擎(如 ElasticSearch
│ ├── 分布式文件系统(如 HDFS
│ ├── 对象存储(如 S3, MinIO
│ ├── 缓存系统(如 RedisMemcached

├── 存储底层原理
│ ├── 数据结构:B+/ LSM-Tree / 哈希表
│ ├── 存储引擎:InnoDB / RocksDB / LevelDB
│ ├── 日志与 WAL(预写式日志)
│ ├── 索引机制:主索引 / 二级索引 / 倒排索引
│ ├── 压缩与编码:列存压缩 / 字典编码 / 布隆过滤器

├── 分布式存储原理
│ ├── 分区与分片(Sharding
│ ├── 数据副本与容错
│ ├── 一致性协议:Paxos / Raft
│ ├── CAP 理论 / BASE 理论
│ ├── 一致性模型:强一致 / 最终一致 / 线性一致性

├── 存储架构设计
│ ├── 热数据与冷数据分层
│ ├── 存储+缓存层设计(缓存预热、淘汰、穿透)
│ ├── 多活 / 灾备 / 容灾 / 容错机制
│ ├── 数据备份与恢复(备份策略、增量快照)
│ ├── 存储与计算分离架构(如 Lakehouse

├── 数据库选型与应用
│ ├── OLTP vs OLAP 对比
│ ├── 不同场景数据库选型(交易 / 实时 / 搜索 / 监控)
│ ├── 数据分层与冷热数据管理
│ ├── 多种存储融合应用(HTAPLambda 架构)

├── 性能调优与监控
│ ├── 索引优化 / 查询优化
│ ├── 并发控制(锁 / MVCC
│ ├── I/O 优化(顺序写 / 页缓存)
│ ├── 存储指标监控(QPS、延迟、写放大、磁盘使用率)

└── 数据安全与合规
├── 数据加密 / 访问控制
├── 数据脱敏 / 审计日志
├── 合规要求(GDPR / 数据本地化)

🧩 二、常见存储类型对比表

类型 代表产品 适用场景 特点
RDBMS MySQL, PostgreSQL 结构化数据,事务强一致性 支持 SQL,事务能力强
KV 存储 Redis, RocksDB 缓存、Session、高并发请求 读写快,结构简单
文档存储 MongoDB, Couchbase 半结构化数据、灵活模型 JSON 文档结构,自由度高
列式存储 ClickHouse, Apache Doris OLAP 分析场景 压缩比高,查询快,适合聚合分析
图数据库 Neo4j, Dgraph 社交网络、图关系分析 关系建模能力强,路径查询高效
对象存储 Amazon S3, MinIO 文件存储、静态资源 存储大文件,低成本,易扩展
文件系统 HDFS, CephFS 大数据分析 高吞吐并行访问,适合批处理
时序数据库 InfluxDB, Prometheus 监控、IoT、时间序列数据 持续写入快,聚合分析方便
搜索引擎 Elasticsearch, Solr 日志、全文检索 倒排索引支持模糊查询,高可扩展性

🔧 三、学习路径推荐(由浅入深)

基础知识:

数据结构(B树、哈希表)

操作系统:文件系统、磁盘结构

SQL 和关系型数据库的使用

缓存原理和使用(Redis)

数据库实现原理:

存储引擎(InnoDB、LSM Tree、WAL)

索引机制和优化

并发控制(MVCC、锁机制)

分库分表、分片策略

分布式存储原理:

一致性协议(Raft、Paxos)

CAP、BASE、数据副本机制

分布式事务、数据同步

存储架构设计实战:

热点数据 + 缓存 + 主存架构

多活容灾架构设计

Lakehouse、HTAP 架构理解与构建

应用层实践:

构建高可用数据库集群(如 MySQL 主从、Redis Sentinel、Elasticsearch 集群)

使用对象存储构建数据湖

结合 Kafka + OLAP 构建实时数仓